년 7월 AI 및 로봇 연구 동향
1. 2017년 7월, AI 기술 변곡점의 도래
2017년의 여름은 인공지능(AI)의 역사에서 단순한 한 시점으로 기록되지 않는다. 이 시기는 기술 패러다임이 근본적으로 전환되고, 미래 기술 경쟁의 구도가 새롭게 정립된 중대한 변곡점이었다. 학계에서는 딥러닝 아키텍처의 기존 한계를 돌파하는 혁신적인 연구들이 동시다발적으로 발표되었으며, 동시에 국가 차원의 거대한 전략이 수립되면서 AI 기술이 순수 연구의 영역을 넘어 산업과 안보의 핵심 의제로 부상했음을 명확히 했다.1
본 보고서는 2017년 7월을 전후하여 발표된 핵심적인 연구 성과와 주요 정책 동향을 심층적으로 분석하고, 이들이 현대 AI 시대의 개막에 어떠한 영향을 미쳤는지 종합적으로 고찰하는 것을 목적으로 한다. 이를 위해 먼저 중국의 ’차세대 인공지능 발전규획’과 같은 국가 전략과 산업계의 동향을 통해 당시 AI 기술에 부여된 거시적 중요성을 짚어본다. 이후, 컴퓨터 비전(CVPR), 기계학습(ICML), 로봇공학(RSS) 분야의 세계 최고 권위 학회에서 발표된 주요 논문들을 기술적으로 해부하여 당시 학계의 첨단 연구 방향을 탐색한다. 특히, 현대 AI의 근간이 된 트랜스포머(Transformer) 아키텍처의 등장을 집중적으로 조명하며, 이 모든 개별적인 흐름이 어떻게 상호작용하며 현재의 AI 시대를 열었는지 그 필연적 귀결을 추적하고자 한다.
2017년 7월의 중요성은 개별 연구의 우수성을 넘어, AI 분야가 마주한 근본적인 도전 과제들에 대한 해법이 동시다발적으로 제시되었다는 점에서 찾을 수 있다. 2012년 AlexNet의 등장 이후 딥러닝 연구는 ‘더 깊게(deeper)’ 네트워크를 쌓아 ’더 높은 정확도(higher accuracy)’를 달성하는 데 집중했다. 그러나 모델이 점차 복잡해지면서 네 가지 핵심적인 문제가 대두되었다. 첫째, RNN과 CNN의 순차적 처리 방식은 대규모 병렬 처리를 어렵게 하여 **확장성(Scalability)**을 저해했다. 둘째, ResNet과 같은 거대 모델은 막대한 수의 파라미터를 요구하여 효율성(Efficiency) 측면에서 한계를 보였다. 셋째, GAN과 같은 생성 모델은 학습 과정이 불안정하여 결과물의 **신뢰성(Reliability)**을 보장하기 어려웠다. 마지막으로, 모델 내부의 작동 원리를 이해할 수 없는 ‘블랙박스’ 문제는 모델의 **해석가능성(Interpretability)**을 중요한 화두로 떠오르게 했다.
놀랍게도 2017년 여름, 이 네 가지 문제에 대한 핵심적인 돌파구가 동시에 마련되었다. ‘Attention Is All You Need’ 논문은 병렬 처리가 가능한 트랜스포머 아키텍처를 통해 확장성의 새로운 길을 열었다. CVPR에서 최우수 논문상을 받은 DenseNet은 파라미터 효율성을 극대화하는 방안을 제시했다. ICML에서 주목받은 Wasserstein GAN(WGAN)은 생성 모델의 학습 안정성, 즉 신뢰성을 이론적으로 개선했으며, 같은 학회에서 최우수 논문상을 수상한 Influence Functions는 블랙박스 모델의 해석가능성에 대한 새로운 접근법을 제공했다. 이러한 기술적 대변혁은 중국의 ’차세대 인공지능 발전규획’과 같은 국가적 야망과 맞물리며 폭발적인 시너지를 창출했다. 기술적 가능성이 폭발하자, 이를 국가 경쟁력으로 전환하려는 지정학적 동기가 강력하게 부여된 것이다. 따라서 2017년 7월은 기술, 산업, 국가 전략이 서로를 가속하며 AI의 새로운 시대를 연 진정한 시발점으로 평가되어야 한다.
2. 국가 전략과 산업 동향: AI 패권 경쟁의 서막
2.1 중국의 ‘차세대 인공지능 발전규획’ 심층 분석
2017년 7월 20일, 중국 국무원이 발표한 ’차세대 인공지능 발전규획(A New Generation Artificial Intelligence Development Plan)’은 단순한 산업 육성 정책을 넘어선다. 이는 2030년까지 세계 최고의 AI 기술 강국으로 도약하겠다는 국가적 청사진이자, 미국과의 기술 패권 경쟁에 본격적으로 뛰어들겠다는 강력한 의지의 표명이었다.1 AlphaGo가 이세돌 9단을 꺾은 사건 이후 AI 기술의 전략적 가치를 절감한 중국 정부는 이 계획을 통해 AI를 국가 발전의 핵심 동력으로 규정하고, 이론, 기술, 산업, 인재, 법률 등 전방위적인 발전 전략을 제시했다.
계획은 명확한 3단계 전략 목표를 설정하여 체계적인 접근을 시도했다.
-
1단계 (~2020년): AI 기술 및 응용 분야를 세계 선진 수준으로 끌어올리는 것을 목표로 했다. 이 단계에서는 AI 산업을 새로운 경제 성장 동력으로 육성하고, 스마트 시티, 의료, 교육 등 다양한 분야에 AI 기술을 접목하여 국민의 삶의 질을 향상시키는 데 주력했다.
-
2단계 (~2025년): AI 기초 이론에서 중대한 돌파구를 마련하고, 일부 핵심 기술 및 응용 분야에서 세계 최고 수준에 도달하는 것을 목표로 설정했다. 이 시기에는 AI가 산업 고도화와 경제 구조 전환의 핵심 동력으로 자리매김할 것으로 기대했다.
-
3단계 (~2030년): AI 이론, 기술, 응용 전반에서 세계를 선도하는 위치에 도달하여 명실상부한 세계 AI 혁신의 중심지가 되는 것을 최종 목표로 삼았다. 이를 통해 경제 발전과 국가 안보 분야에서 막대한 성과를 창출하겠다는 비전을 담았다.
이러한 목표 달성을 위해 계획안은 구체적인 핵심 연구 분야와 기술 시스템 구축 방안을 명시했다. 이는 당시 AI 연구의 최전선을 정확히 파악하고, 미래 기술을 선점하려는 중국의 전략적 통찰을 보여준다.4
-
기초 이론 (Basic Theories): 빅데이터 지능, 크로스미디어 감지 및 컴퓨팅, 하이브리드 및 강화 지능, 군집 지능(Swarm Intelligence), 자율 협응 제어 및 최적화 의사결정 이론 등, 당시 학계에서 막 태동하던 첨단 이론들을 국가적 연구 과제로 포함시켰다. 이는 단순히 응용 기술 개발에 그치지 않고, AI의 근본 원리를 파고들어 원천 기술을 확보하겠다는 의지를 드러낸다.
-
핵심 공통 기술 (Key General Technologies): 지식 컴퓨팅 엔진, 크로스미디어 분석 추론 기술, 군집 지능 핵심 기술, 자율 무인 시스템 지능 기술 등 산업 및 국방 분야에 즉시 적용 가능한 구체적인 기술 개발 목표를 제시했다. 이는 이론 연구와 실제 응용 사이의 간극을 최소화하고, 기술 개발의 성과가 신속하게 산업 경쟁력으로 이어지도록 설계되었음을 의미한다.
2.2 산업 및 국방 분야의 AI 도입 가속화
2017년 7월을 기점으로 AI 기술의 경제적, 안보적 가치에 대한 인식이 전 세계적으로 확산되며 산업 및 국방 분야로의 도입이 가속화되었다.
제조업 분야에서는 AI 및 로보틱스 기반의 예지보전(Predictive Maintenance) 기술이 혁신의 핵심 동력으로 부상했다. 당시 발표된 전망에 따르면, 이 기술은 제조업의 연간 설비 다운타임(downtime)으로 인한 비용을 최대 1.4조 달러까지 절감할 수 있을 것으로 예측되었다.5 이는 AI가 단순히 반복적인 노동을 자동화하는 수준을 넘어, 생산 시스템 전체의 효율성을 극대화하고 예측 불가능한 손실을 최소화하는 근본적인 최적화 도구로 기능할 수 있음을 보여주는 상징적인 사례였다.
동시에 AI 기술의 국가 안보적 함의 또한 중요하게 부각되었다. 하버드 케네디 스쿨의 Belfer Center에서 2017년 7월 발표한 ‘인공지능과 국가 안보(Artificial Intelligence and National Security)’ 보고서는 AI를 핵, 항공우주, 사이버 기술에 버금가는 ’변혁적 군사 기술(transformative military technology)’로 규정했다.3 이 보고서는 AI 기술의 군사적 응용이 항공기의 등장만큼이나 저항하기 어려운 흐름이며, AI를 활용한 군비 경쟁은 사실상 불가피하다고 분석했다. 이는 중국의 ’차세대 인공지능 발전규획’이 경제적 목표뿐만 아니라, 국가의 군사력과 안보 역량을 강화하려는 강력한 지정학적 의도를 내포하고 있음을 뒷받침한다.
이러한 국가적 차원의 전략 수립은 기술 발전의 방향성에 지대한 영향을 미쳤다. 2017년 이전까지 딥러닝의 주요 혁신은 대부분 Google, Facebook 등 북미의 거대 테크 기업과 대학 연구실을 중심으로 이루어졌다. 특히 2017년 6월 Google이 발표한 트랜스포머 아키텍처는 AI 분야의 판도를 바꿀 잠재력을 지닌 기술적 성취였다.2 중국은 이러한 서구의 기초 연구 성과를 빠르게 흡수하면서, 이를 국가 주도의 거대 전략으로 체계화하는 전략적 움직임을 보였다. ’차세대 인공지능 발전규획’은 단순히 기술을 모방하는 것을 넘어, 중국이 강점을 가진 빅데이터, 군집 지능 등의 분야에서 기술적 우위를 점하고, 방대한 내수 시장과 데이터 자산, 강력한 정부 지원을 통해 ’규모의 경제’로 미국을 압도하려는 전략적 계산이 깔려 있었다.4
중국의 이러한 야심 찬 선언은 미국 학계와 정부에 상당한 경각심을 불러일으켰고, 이는 미 국방고등연구계획국(DARPA)의 AI 관련 투자 확대와 국가 안보 차원의 AI 정책 수립 가속화로 이어졌다.3 결과적으로 2017년 7월은 학문적 영역에서 이루어진 기술 발전이 지정학적 경쟁을 촉발하고, 이 경쟁이 다시 기술에 대한 투자를 가속하는 선순환 혹은 경쟁적 심화 구조의 명백한 시작점이 되었다.
3. 학계를 휩쓴 혁신: 주요 컨퍼런스 핵심 연구 동향
2017년 여름은 컴퓨터 비전(CVPR), 기계학습(ICML), 로봇공학(RSS) 분야의 세계 최고 권위 학회들이 연이어 개최되며, AI 기술의 미래를 정의할 혁신적인 아이디어들이 경합하는 용광로와 같았다. 이 시기 학회들의 최우수 논문상 수상작들은 당시 학계가 직면했던 가장 중요한 도전 과제들과 그에 대한 창의적인 해결책을 명확하게 보여준다. 본 장에서는 각 학회의 핵심 연구들을 심층적으로 분석하여 당시 학문적 지형의 변화를 탐색한다.
아래 표는 2017년 여름 주요 AI 학회에서 최우수 논문상을 수상한 연구들을 요약한 것이다. 이 표는 본 장 전체의 개요 역할을 하며, 독자들이 각 분야의 가장 영향력 있는 연구들을 한눈에 파악할 수 있도록 돕는다. 효율성, 데이터 생성, 해석가능성, 최적화라는 핵심 주제들이 어떻게 각기 다른 분야에서 최고 수준의 연구로 인정받았는지 보여준다.
| 학회 (Conference) | 논문 제목 (Paper Title) | 저자 (Authors) | 핵심 기여 (Key Contribution) | Snippet ID |
|---|---|---|---|---|
| CVPR 2017 | Densely Connected Convolutional Networks | Gao Huang, Zhuang Liu, Laurens van der Maaten, Kilian Q. Weinberger | 각 계층을 모든 선행 계층과 연결하여 파라미터 효율성 및 성능을 극대화한 DenseNet 아키텍처 제안 | 6 |
| CVPR 2017 | Learning from Simulated and Unsupervised Images through Adversarial Training | Ashish Shrivastava, Tomas Pfister, Oncel Tuzel, et al. | 비지도 실제 데이터를 활용하여 시뮬레이션 이미지의 현실성을 높이는 SimGAN 프레임워크 제안 | 6 |
| ICML 2017 | Understanding Black-box Predictions via Influence Functions | Pang Wei Koh, Percy Liang | 모델의 예측 결과를 특정 학습 데이터의 영향으로 설명하는 해석 가능성 방법론 제시 | 9 |
| RSS 2017 | Asymptotically Optimal Design of Piecewise Cylindrical Robots using Motion Planning | Cenk Baykal, Ron Alterovitz | 로봇의 기구학적 설계와 동작 계획을 통합하여 점근적으로 최적의 설계를 찾는 프레임워크 제안 | 11 |
3.1 CVPR 2017 (7월, 호놀룰루): 컴퓨터 비전의 새로운 지평
2017년 IEEE Conference on Computer Vision and Pattern Recognition (CVPR)에서는 딥러닝 모델의 효율성과 데이터 문제를 정면으로 다루는 두 편의 논문이 최우수 논문상을 공동 수상하며 학계의 큰 주목을 받았다.
3.1.1 고밀도 연결 합성곱 신경망 (DenseNet) 심층 분석
ResNet의 등장으로 100층 이상의 매우 깊은 신경망을 학습하는 것이 가능해졌지만, 여전히 많은 파라미터가 중복된 특징을 학습하는 비효율성 문제가 존재했다.12 Gao Huang 등이 발표한 “Densely Connected Convolutional Networks“는 이러한 문제에 대한 혁신적인 해결책을 제시했다.
이 논문의 핵심 아이디어는 ’특징 재사용(Feature Reuse)’을 극대화하는 것이다. DenseNet은 각 계층이 이전의 모든 계층으로부터 생성된 특징 맵(feature map)을 입력으로 받아 채널(channel) 차원에서 연결(concatenate)하는 ‘고밀도 연결(dense connectivity)’ 구조를 제안했다.7 이러한 구조는 네트워크 내 정보의 흐름을 극대화하고, 각 계층이 손실 함수로부터 직접적인 그래디언트 신호를 받을 수 있게 하여 그래디언트 소실(vanishing-gradient) 문제를 근본적으로 완화한다. 또한, 이전 계층의 특징 맵들이 그대로 다음 계층들로 전달되므로 네트워크는 새로운 특징을 학습하는 데에만 집중할 수 있어 특징의 재사용을 효과적으로 장려한다.15
DenseNet 아키텍처는 여러 개의 ’Dense Block’과 그 사이를 잇는 ’Transition Layer’로 구성된다. 각 Dense Block 내에서 l번째 레이어의 출력 x_l은 이전 모든 레이어의 출력 x_0, x_1,..., x_{l-1}을 입력으로 받는다. 이를 수식으로 표현하면 다음과 같다.17
x_l = H_l([x_0, x_1,..., x_{l-1}])
여기서 [...]는 채널 차원에서의 concatenation 연산을 의미하며, H_l(·)은 Batch Normalization, ReLU, Convolution으로 구성된 비선형 변환 함수를 나타낸다. 이 구조에서 중요한 개념은 ’성장률(growth rate, k)’이다. 이는 각 H_l 함수가 생성하는 특징 맵의 채널 수를 의미하며, 일반적으로 12나 32와 같은 비교적 작은 값으로 설정된다.12 각 레이어는 네트워크의 ’집합적 지식(collective knowledge)’에
k개의 채널만큼의 새로운 정보만 추가하게 되므로, 전체 네트워크는 매우 높은 파라미터 효율성을 달성할 수 있다.
DenseNet의 우수성은 실험을 통해 명확히 입증되었다. CIFAR, SVHN, ImageNet 등 주요 이미지 인식 벤치마크에서 DenseNet은 당대 최고의 모델이었던 ResNet보다 훨씬 적은 파라미터와 연산량(FLOPs)으로 동등하거나 더 우수한 성능을 달성했다.6 예를 들어, ImageNet 데이터셋에서 약 2,000만 개의 파라미터를 가진 DenseNet-201 모델이 4,000만 개 이상의 파라미터를 가진 ResNet-101 모델과 유사한 성능을 보였다는 결과는 딥러닝 커뮤니티에 큰 충격을 주었다.20 이는 딥러닝 모델의 성능이 단순히 깊이나 크기에만 비례하는 것이 아니며, 아키텍처 설계를 통해 정보의 흐름을 어떻게 효율화하는지가 더 중요할 수 있음을 시사했다.
3.1.2 적대적 훈련을 통한 시뮬레이션 및 비지도 학습 (SimGAN)
딥러닝 모델의 성능은 대규모의 정교하게 레이블링된 데이터에 크게 의존한다. 하지만 이러한 데이터를 구축하는 것은 막대한 비용과 시간을 요구하는 작업이다. 이에 대한 대안으로 컴퓨터 그래픽 기술을 이용해 합성 데이터를 생성하는 방법이 주목받았지만, 합성 이미지와 실제 이미지 사이의 ‘현실과의 괴리(reality gap)’ 때문에 실제 환경에서는 모델 성능이 저하되는 문제가 있었다.8 Ashish Shrivastava 등이 발표한 “Learning from Simulated and Unsupervised Images through Adversarial Training“은 이 문제를 해결하기 위한 독창적인 프레임워크, SimGAN을 제안했다.
이 연구의 핵심 아이디어는 ’S+U (Simulated+Unsupervised) Learning’이라는 개념이다. 이는 레이블이 없는 실제 이미지 데이터를 활용하여, 시뮬레이터가 생성한 합성 이미지의 현실성을 높이는 ‘정제기(Refiner)’ 네트워크를 학습시키는 방식이다. 이 과정의 핵심은 원본 합성 데이터가 가지고 있는 주석 정보(예: 시선 방향, 손의 관절 위치 등)를 훼손하지 않고 보존하는 것이다.22
SimGAN 아키텍처는 두 개의 주요 네트워크로 구성된다. ’정제기(Refiner, R)’는 합성 이미지를 입력받아 더 현실적인 이미지로 변환하고, ’판별기(Discriminator, D)’는 정제된 이미지가 실제 이미지인지, 아니면 정제된 가짜 이미지인지를 판별한다. 정제기는 두 가지 손실 함수를 통해 학습된다.22
-
Adversarial Loss (\mathcal{L}_{real}): 정제기가 생성한 이미지가 판별기를 속여 실제 이미지처럼 보이도록 유도하는 손실이다. 이는 Generative Adversarial Networks (GANs)의 기본 원리와 동일하며, 생성된 이미지에 현실감을 부여하는 역할을 한다.21
-
Self-Regularization Loss (\mathcal{L}_{reg}): 정제된 이미지가 원본 합성 이미지의 내용과 너무 많이 달라지지 않도록 규제하는 손실이다. 이 손실 항 덕분에 이미지의 현실성은 개선되면서도 원본이 가진 핵심적인 주석 정보는 보존될 수 있다. 전체 손실 함수는 다음과 같이 표현된다.22
\mathcal{L}_{R}(\boldsymbol{\theta}) = \sum_{i} \ell_{\text{real}}(\boldsymbol{\theta}; \mathbf{x}_{i}, \mathcal{Y}) + \lambda \ell_{\text{reg}}(\boldsymbol{\theta}; \mathbf{x}_{i})
SimGAN의 효과는 시선 추정(MPIIGaze) 및 손 자세 추정(NYU Hand Pose)과 같은 실제 컴퓨터 비전 태스크를 통해 정량적으로 평가되었다. SimGAN으로 정제된 합성 데이터로 학습한 모델은 순수 합성 데이터로만 학습한 모델에 비해 월등히 높은 성능을 보였으며, 특히 MPIIGaze 데이터셋에서는 당시 최고 성능(State-Of-The-Art, SOTA)을 달성했다.8 이 연구는 값비싼 레이블링 작업 없이도 고품질의 학습 데이터를 대량으로 확보할 수 있는 새로운 길을 열어주었다는 점에서 큰 의미를 가진다.
3.2 ICML 2017 (8월, 시드니): 기계학습 이론과 응용의 확장
2017년 International Conference on Machine Learning (ICML)에서는 딥러닝의 근본적인 문제인 학습의 불안정성과 해석 불가능성을 다루는 두 편의 중요한 논문이 발표되었다.
3.2.1 생성적 적대 신경망의 안정화: Wasserstein GAN (WGAN)
2014년 Ian Goodfellow에 의해 처음 제안된 GAN은 실제와 유사한 데이터를 생성하는 능력으로 큰 주목을 받았지만, 학습 과정이 매우 불안정하고 생성자가 데이터 분포의 일부만을 학습하는 ‘모드 붕괴(mode collapse)’ 현상이 빈번하게 발생한다는 고질적인 문제를 안고 있었다.24 Martin Arjovsky 등이 발표한 “Wasserstein Generative Adversarial Networks“는 이러한 문제를 수학적으로 분석하고 근본적인 해결책을 제시했다.
논문의 핵심 아이디어는 기존 GAN이 사용하던 Jensen-Shannon(JS) 발산이나 Kullback-Leibler(KL) 발산 대신, 두 확률 분포 간의 거리를 측정하는 척도로 ‘Earth-Mover(EM) 거리’, 또는 ’Wasserstein-1 거리’를 도입하는 것이다.26 JS나 KL 발산은 두 분포의 지지 집합(support)이 거의 겹치지 않을 경우, 그래디언트가 0에 가까워져 학습이 제대로 이루어지지 않는 문제를 가진다. 반면, EM 거리는 두 분포가 겹치지 않는 경우에도 의미 있는 그래디언트를 제공하여 학습 과정을 훨씬 안정적으로 만든다.27
EM 거리는 직접 계산하기 매우 어렵기 때문에, 연구팀은 Kantorovich-Rubinstein 쌍대성(duality)을 활용하여 목적 함수를 재구성했다. 이 접근법에서는 판별자(Discriminator)를 ’비평가(Critic)’로 재정의하고, 이 비평가가 1-립시츠(1-Lipschitz) 제약 조건을 만족하도록 가중치를 클리핑(clipping)한다. 비평가 f_w는 실제 데이터 분포 P_r과 생성 데이터 분포 P_g 사이의 EM 거리를 근사적으로 최대화하도록 학습된다.26
\max_{w \in \mathcal{W}} \mathbb{E}_{x \sim P_r} [f_w(x)] - \mathbb{E}_{z \sim p(z)} [f_w(g_\theta(z))]
이후 생성자 g_θ는 비평가가 추정한 EM 거리를 최소화하는 방향으로 학습된다. 이 새로운 목적 함수는 학습 과정 전반에 걸쳐 유의미한 그래디언트를 제공하여 모드 붕괴 현상을 크게 완화했다. 또한, WGAN의 손실 값은 생성된 이미지의 품질과 직접적인 상관관계를 보여, 학습 과정을 모니터링하고 디버깅하는 데 유용한 지표로 활용될 수 있다는 중요한 장점을 제공했다.24 WGAN은 GAN 연구에 견고한 이론적 토대를 제공하며 후속 연구의 방향을 제시한 기념비적인 논문으로 평가받는다.
3.2.2 블랙박스 모델 해석의 새로운 장: 영향 함수 (Influence Functions)
딥러닝 모델이 점점 더 복잡해지고 강력해짐에 따라, 모델이 특정 예측을 내린 이유를 설명하는 ‘해석가능성(Interpretability)’ 또는 ’설명가능 AI(XAI)’의 중요성이 크게 대두되었다.9 Pang Wei Koh와 Percy Liang이 발표하여 ICML 2017 최우수 논문상을 수상한 “Understanding Black-box Predictions via Influence Functions“는 이 문제에 대한 새로운 해법을 제시했다.
이 연구의 핵심 아이디어는 강건한 통계학(robust statistics) 분야의 고전적인 기법인 ’영향 함수(influence function)’를 딥러닝 모델에 적용하는 것이다. 영향 함수는 특정 학습 데이터 포인트 하나를 제거하거나 미세하게 변경했을 때, 모델의 파라미터나 특정 테스트 데이터에 대한 예측이 얼마나 변하는지를 모델을 재학습하지 않고도 효율적으로 추정하는 방법이다.10
영향 함수는 특정 학습 데이터 z의 가중치를 미세하게 조정했을 때, 테스트 데이터 z_test에 대한 손실(loss)의 변화를 측정한다. 이는 손실 함수의 2차 미분 값인 헤시안(Hessian) 행렬을 이용하여 근사적으로 계산할 수 있다.29 특정 학습 데이터z가 테스트 데이터 z_test의 손실에 미치는 영향은 다음 수식으로 근사된다.
\mathcal{I}_{\text{up, loss}}(z, z_{\text{test}}) = - \nabla_{\theta} L(z_{\text{test}}, \hat{\theta})^T H_{\hat{\theta}}^{-1} \nabla_{\theta} L(z, \hat{\theta})
여기서 H_{\hat{\theta}}^{-1}는 최적화된 파라미터 \hat{\theta}에서의 헤시안 행렬의 역행렬이다. 딥러닝 모델에서 헤시안의 역행렬을 직접 계산하는 것은 거의 불가능하지만, 연구팀은 Hessian-vector product와 반복적인 최적화 기법(예: Conjugate Gradient)을 사용하여 이 값을 효율적으로 근사하는 방법을 제안했다.30
이 방법론은 다양한 실용적인 응용 가능성을 열어주었다. 예를 들어, 모델이 잘못된 예측을 했을 때, 어떤 학습 데이터가 그 예측에 가장 부정적인 영향을 미쳤는지 추적하여 데이터셋의 오류(예: 잘못된 레이블)를 찾아내고 수정할 수 있다.29 또한, 특정 테스트 샘플의 예측 결과를 바꾸기 위해 어떤 학습 데이터를 어떻게 수정해야 하는지를 계산하여, 인간의 눈으로는 거의 구별할 수 없는 미세한 변화를 가해 모델을 속이는 ’적대적 훈련 데이터(adversarial training examples)’를 생성하는 것도 가능함을 보여주었다.29 이 연구는 모델의 예측을 개별 학습 데이터의 기여도로 분해하여 설명함으로써, 블랙박스 모델의 투명성과 신뢰성을 높이는 중요한 첫걸음을 내디뎠다.
3.3 RSS 2017 (7월, 케임브리지): 로봇 공학의 지능화와 최적화
2017년 Robotics: Science and Systems (RSS) 학회에서는 AI 기술을 물리적 세계와 상호작용하는 로봇 시스템에 통합하려는 노력이 두드러졌다. 특히 최우수 논문상 수상작은 로봇 개발의 근본적인 패러다임에 대한 질문을 던졌다.
3.3.1 로봇 기구학적 설계와 동작 계획의 통합 최적화
전통적으로 로봇 개발 과정에서 하드웨어의 ’기구학적 설계(kinematic design)’와 소프트웨어의 ’동작 계획(motion planning)’은 분리된 단계로 진행되었다. 먼저 로봇의 물리적 형태(예: 링크의 길이, 관절의 수)를 결정한 뒤, 그 설계 위에서 동작을 계획하는 방식이었다. 그러나 특정 작업 환경이나 임무에 고도로 최적화된 로봇을 만들기 위해서는 이 두 요소를 동시에 고려하여 최적화하는 것이 이상적이다.32 Cenk Baykal과 Ron Alterovitz가 발표한 “Asymptotically Optimal Design of Piecewise Cylindrical Robots using Motion Planning“은 이 문제에 대한 체계적인 해결책을 제시했다.
이 연구의 핵심 아이디어는 로봇의 ’설계 공간(design space)’에서의 확률적 최적화와 ’구성 공간(configuration space)’에서의 샘플링 기반 동작 계획을 하나의 프레임워크로 통합하는 것이다.33 연구팀은 다음과 같은 통합 최적화 방법론을 제안했다.
-
먼저, 확률적 최적화 기법(stochastic optimization)을 사용하여 가능한 로봇 설계(예: 각 링크의 길이 조합)를 탐색 공간에서 샘플링한다.
-
각각의 후보 설계에 대해, 샘플링 기반 동작 계획 알고리즘(예: RRT)을 실행하여 주어진 작업 환경에서 로봇이 목표 지점까지 장애물을 피해 도달할 수 있는지, 즉 ’도달 가능성(reachability)’을 평가한다.
-
이 평가 결과를 목적 함수 값으로 사용하여, 더 나은 성능을 보이는 설계 방향으로 탐색을 계속 진행한다.
이 과정의 핵심은 제한된 시간 내에 동작 계획 알고리즘이 도달 가능성을 완벽하게 보장할 수 없다는 불확실성을 인정하고, 최적화 과정이 진행됨에 따라 동작 계획에 더 많은 계산 시간을 할당하여 평가의 정확도를 점진적으로 높이는 것이다. 연구팀은 이러한 접근법이 이론적으로 전역 최적 설계(globally optimal design)에 점근적으로 수렴함(asymptotic optimality)을 수학적으로 증명했다.11
이 연구의 의의는 로봇 개발 패러다임을 ’설계 후 프로그래밍’에서 ’작업 중심의 동시 최적화(co-design)’로 전환하는 중요한 이론적 기반을 마련했다는 데 있다. 이는 특히 최소 침습 수술 로봇이나 재난 현장 탐사 로봇처럼, 고도로 제약된 환경에서 특정 임무를 수행해야 하는 로봇의 설계에 혁신적인 변화를 가져올 잠재력을 지닌다.32
2017년 여름, 주요 학회에서 발표된 이 연구들은 개별적인 기술 발전을 넘어, 서로 유기적으로 연결된 AI 기술 생태계의 청사진을 제시했다. GAN의 발전은 현실적인 데이터 **생성(Generation)**의 가능성을 열었지만, WGAN이 해결하고자 했던 학습 불안정성이라는 과제를 낳았다. SimGAN은 이 생성 기술을 실용적인 데이터 증강 문제에 적용했다. 한편, 딥러닝 모델의 복잡도가 증가하면서 ResNet과 같은 모델의 파라미터 **효율화(Efficiency)**가 시급한 과제로 떠올랐고, DenseNet은 이에 대한 우아한 해결책을 제시했다. 그러나 DenseNet, GAN과 같이 강력하지만 복잡한 모델의 등장은 ’왜?’라는 질문을 낳으며 모델 예측의 신뢰성 문제를 야기했다. Influence Functions는 이 블랙박스를 열어 내부를 들여다보려는 해석(Interpretation) 가능성 연구의 흐름을 주도했다. 마지막으로, AI 기술의 궁극적인 목표 중 하나는 물리적 시스템에 지능을 부여하는 것이다. RSS의 최우수 논문은 앞선 기술들을 바탕으로 물리적 세계와 상호작용하는 시스템 자체를 **최적화(Optimization)**하는 고차원적인 문제로 나아갔다. 이 네 가지 축—생성, 효율화, 해석, 최적화—는 서로 맞물려 돌아간다. 더 효율적인 모델(DenseNet)은 더 복잡한 생성(GAN) 및 최적화(RSS) 작업을 가능하게 하고, 이 복잡성은 다시 더 정교한 해석(Influence Functions) 기술을 요구한다. 2017년 7월은 이 선순환적 기술 생태계의 핵심 구성요소들이 모두 모습을 드러낸 결정적인 순간이었다.
4. 딥러닝 아키텍처의 패러다임 전환: 트랜스포머의 등장
4.1 ‘Attention Is All You Need’ 논문 집중 탐구
2017년 이전, 자연어 처리(NLP)를 포함한 대부분의 시퀀스(sequence) 데이터 모델링 분야는 순환 신경망(RNN, Recurrent Neural Networks)과 그 변형인 LSTM(Long Short-Term Memory), GRU(Gated Recurrent Unit)가 지배하고 있었다. 이 모델들은 데이터의 순서 정보를 처리하기 위해 이전 타임스텝의 은닉 상태(hidden state)를 현재 타임스텝의 입력으로 사용하는 재귀적인(recurrent) 구조를 가졌다. 이러한 순차적 처리 방식은 본질적으로 병렬화가 어려워, GPU를 활용한 대규모 데이터 학습의 효율성을 저해하는 근본적인 한계를 안고 있었다.2
2017년 6월, Google 연구팀 소속 8명의 저자가 arXiv에 공개한 “Attention Is All You Need“라는 도발적인 제목의 논문은 이 패러다임을 완전히 뒤바꾸었다. 이 논문은 RNN이나 CNN(Convolutional Neural Networks) 구조를 완전히 배제하고, 오직 ‘어텐션(Attention)’ 메커니즘만으로 구성된 ’트랜스포머(Transformer)’라는 새로운 아키텍처를 제안했다.2 이 혁명적인 제안, 즉 “재귀(Recurrence)를 버려라“는 선언은 시퀀스 내의 모든 단어 쌍 간의 관계를 한 번에 계산할 수 있게 함으로써, 전례 없는 수준의 병렬화를 가능하게 했다.
4.2 트랜스포머의 핵심 구성 요소
트랜스포머 아키텍처의 성공은 세 가지 핵심적인 구성 요소의 독창적인 조합에 기인한다.
4.2.1 Scaled Dot-Product Attention
어텐션 메커니즘의 기본 원리는 입력 시퀀스 내에서 특정 요소(쿼리)가 다른 모든 요소(키)들과 얼마나 관련이 있는지를 계산하고, 이 관련성을 가중치로 삼아 해당 요소들의 정보(값)를 가중합하여 새로운 표현을 만드는 것이다. 트랜스포머는 이를 ’Scaled Dot-Product Attention’이라는 매우 효율적인 방식으로 구현했다.
어떤 쿼리(Query) 벡터가 주어졌을 때, 모든 키(Key) 벡터와의 내적(dot-product)을 계산하여 유사도를 구한다. 이 유사도 점수는 키 벡터의 차원 d_k의 제곱근 \sqrt{d_k}으로 나누어 스케일링(scaling)된다. 이 스케일링 과정은 d_k 값이 클 경우 내적 값이 지나치게 커져 소프트맥스(softmax) 함수의 그래디언트가 0에 가까워지는 문제를 방지하여 학습을 안정화시키는 중요한 역할을 한다.2 스케일링된 점수에 소프트맥스 함수를 적용하여 합이 1이 되는 가중치를 얻고, 이 가중치를 각 키에 해당하는 값(Value) 벡터에 곱하여 모두 더하면 최종 어텐션 출력이 된다. 이 모든 과정은 행렬 연산으로 한 번에 처리될 수 있어 매우 효율적이다. 수식은 다음과 같다.2
\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V
여기서 Q, K, V는 각각 쿼리, 키, 값 벡터들을 쌓아 만든 행렬이다.
4.2.2 Multi-Head Attention
트랜스포머는 단일 어텐션을 한 번만 수행하는 대신, ’Multi-Head Attention’이라는 구조를 통해 모델이 입력 정보의 다양한 측면을 동시에 학습하도록 설계했다. 이는 쿼리, 키, 값을 h개의 서로 다른 선형 변환(linear projection)을 통해 더 낮은 차원으로 투영한 뒤, 각각에 대해 병렬적으로 Scaled Dot-Product Attention을 수행하는 방식이다.2
이렇게 얻어진 h개의 어텐션 출력(head)들은 다시 하나로 연결(concatenate)된 후, 최종적인 선형 변환을 거쳐 원래의 차원으로 복원된다. 이 구조는 각 어텐션 헤드가 시퀀스 내의 서로 다른 종류의 관계(예: 구문적 관계, 의미적 관계, 장거리 의존성 등)를 독립적으로 학습할 수 있는 전문화된 부분 공간(subspace)을 제공한다. 결과적으로 모델은 단일 어텐션으로는 포착하기 어려운 복잡하고 다층적인 정보에 함께 집중할 수 있게 되어 표현력이 크게 향상된다.39
4.2.3 Positional Encoding
재귀 구조를 완전히 제거한 트랜스포머는 입력 시퀀스 내 단어들의 순서 정보를 알 수 없다는 근본적인 문제를 가진다. “the cat sat on the mat“과 “the mat sat on the cat“을 구분할 수 없는 것이다. 이 문제를 해결하기 위해 연구팀은 ’위치 인코딩(Positional Encoding)’이라는 간단하면서도 효과적인 방법을 도입했다.41
이는 각 단어의 절대적 또는 상대적 위치에 대한 정보를 담고 있는 고정된 벡터를 계산하여, 단어의 입력 임베딩 벡터에 더해주는 방식이다. 논문에서는 주기가 다른 사인(sine)과 코사인(cosine) 함수를 사용하여 위치 인코딩 벡터를 생성했다.2
PE_{(pos, 2i)} = \sin(pos / 10000^{2i/d_{\text{model}}})
PE_{(pos, 2i+1)} = \cos(pos / 10000^{2i/d_{\text{model}}})
여기서 pos는 시퀀스 내 위치, i는 임베딩 벡터 내의 차원 인덱스, d_model은 모델의 임베딩 차원이다. 이 방식은 모델이 학습 중에 접했던 길이보다 더 긴 시퀀스에 대해서도 위치 정보를 일반화하여 추론할 수 있다는 장점을 가진다.
4.3 성능 및 영향
트랜스포머의 성능은 당시 기계 번역 분야의 표준 벤치마크였던 WMT 2014 태스크에서 입증되었다. 트랜스포머 ‘big’ 모델은 영어-독일어 번역에서 28.4 BLEU, 영어-프랑스어 번역에서 41.8 BLEU 점수를 기록하며, 기존의 복잡한 앙상블 모델들을 포함한 모든 최고 성능 기록을 경신했다.38 더욱 놀라운 점은 이 성과가 기존 SOTA 모델들의 훈련 비용의 극히 일부만으로, 8개의 P100 GPU에서 단 3.5일 만에 달성되었다는 것이다.40
트랜스포머의 등장은 단순한 성능 향상을 넘어 AI 분야의 패러다임을 전환시켰다. 압도적인 병렬 처리 능력은 GPU와 같은 하드웨어를 최대한 활용하여 이전에는 상상할 수 없었던 규모의 데이터로 모델을 학습시키는 것을 가능하게 했다. 이는 곧바로 BERT, GPT, T5와 같은 후속 대규모 언어 모델(LLM)의 폭발적인 발전을 이끈 직접적인 원동력이 되었다.2 2017년 7월은 현대 AI를 지탱하는 핵심 아키텍처의 기반이 마련된 역사적인 순간으로 기록된다.
이 논문의 진정한 유산은 단일 모델의 성능을 넘어, 딥러닝 아키텍처 설계 방법론 자체에 있다. 이전의 VGG, ResNet, LSTM과 같은 아키텍처들이 각기 다른 문제에 특화된 모놀리식(monolithic) 구조에 가까웠다면, 트랜스포머는 ‘어텐션’, ‘피드포워드 네트워크’, ‘잔차 연결’, ’레이어 정규화’라는 표준화된 ’레고 블록’을 제시했다. 연구자들은 이 모듈화된 블록들을 자유롭게 조합하고 변형하여 다양한 문제를 해결할 수 있게 되었다. BERT는 트랜스포머의 인코더 블록만을, GPT는 디코더 블록만을 활용했으며, Vision Transformer(ViT)는 이 구조를 이미지 인식에 성공적으로 적용했다. 즉, 트랜스포머는 기계 번역이라는 특정 작업을 위한 솔루션을 넘어, 범용적인 ’표상 학습기(representation learner)’의 설계 청사진을 제공한 것이다. 이러한 모듈성은 하드웨어 최적화와 소프트웨어 라이브러리(예: Hugging Face Transformers) 생태계의 발전을 촉진하며, AI 연구 개발의 속도를 기하급수적으로 가속화시키는 계기가 되었다.
5. 종합 및 전망: 2017년 7월이 남긴 유산
2017년 7월을 전후하여 AI 및 로봇 분야에서 발표된 연구 성과와 정책들은 개별적인 사건의 나열이 아니라, 서로 긴밀하게 영향을 주고받으며 현대 AI 시대의 기술적, 전략적 토대를 구축한 하나의 거대한 흐름으로 이해해야 한다. 이 시기에 나타난 다양한 기술적 흐름들은 서로의 필요를 충족시키고 새로운 과제를 제시하며 융합되었다.
트랜스포머가 제시한 압도적인 확장성의 비전은 DenseNet이 추구한 효율성과 결합하여 더 크고 강력한 모델의 등장을 가능하게 했다. 이러한 거대 모델의 등장은 필연적으로 WGAN이 다루었던 학습의 신뢰성 문제와 Influence Functions가 탐구한 해석가능성의 중요성을 더욱 부각시키는 결과를 낳았다. 동시에, RSS에서 발표된 로봇 공학의 최적화 연구는 이러한 첨단 AI 기술들이 가상 세계의 계산을 넘어 물리적 세계와 상호작용하는 구체적인 미래상을 제시했다. 이처럼 2017년 7월은 확장성, 효율성, 신뢰성, 해석가능성, 그리고 물리적 구현이라는 현대 AI의 핵심 기둥들이 동시에 세워진 결정적인 순간이었다.
이 시기에 제시된 개념들은 이후 AI 연구의 모든 분야로 퍼져나가 핵심적인 키워드가 되었다.
-
트랜스포머 아키텍처는 대규모 언어 모델(LLM)과 생성 AI 혁명의 기술적 기반이 되었으며, 자연어 처리를 넘어 컴퓨터 비전, 신약 개발 등 거의 모든 AI 응용 분야의 표준으로 자리 잡았다.
-
GAN의 안정화를 위한 WGAN의 이론적 기여는 이후 StyleGAN 등 고품질 이미지, 영상, 음성 생성 기술의 발전을 이끌었다.
-
모델 효율성에 대한 DenseNet의 탐구는 모바일 기기나 엣지 디바이스에서 AI를 구동하기 위한 경량화 모델과 온디바이스(On-device) AI 연구의 발전을 촉진했다.
-
**해석가능성(XAI)**에 대한 Influence Functions의 접근은 AI 모델의 예측을 신뢰하고, 공정성과 윤리적 문제를 해결하기 위한 필수적인 연구 분야로 자리 잡았다.
2017년 7월이 연 새로운 시대는 ‘규모의 법칙(Scaling Law)’, 즉 더 많은 데이터와 더 큰 모델이 더 나은 성능으로 이어진다는 법칙이 지배하는 거대 모델의 시대로 이어졌다. 그러나 동시에 이 시기에 제기되었던 효율성, 신뢰성, 해석가능성에 대한 근본적인 고민은 여전히 현재진행형 과제로 남아있다. 미래의 AI 연구는 단순히 모델의 크기를 키우는 경쟁을 넘어, 2017년에 제시된 이 근본적인 문제들을 더욱 정교하게 해결하며 지속 가능한 AI 기술 생태계를 구축하는 방향으로 나아갈 것이다. 또한, 중국의 AI 굴기 선언에서 촉발된 국가 간 기술 패권 경쟁은 AI 기술 발전을 가속하는 동시에, 기술의 통제, 데이터 주권, 그리고 AI 윤리에 대한 국제적 논의를 더욱 시급하고 중요한 의제로 만들 것으로 전망된다. 2017년 7월은 끝이 아닌, 새로운 도전과 가능성으로 가득 찬 시대의 시작이었다.
6. 참고 자료
- 중국 인공지능(AI) 산업 현황 및 발전 전망 - 대외경제정책연구원, https://www.kiep.go.kr/galleryDownload.es?bid=0006&list_no=4810&seq=1
- Attention Is All You Need - Wikipedia, https://en.wikipedia.org/wiki/Attention_Is_All_You_Need
- Artificial Intelligence and National Security | The Belfer Center for Science and International Affairs, https://www.belfercenter.org/publication/artificial-intelligence-and-national-security
- Full Translation: China’s ‘New Generation Artificial Intelligence Development Plan’ (2017), https://digichina.stanford.edu/work/full-translation-chinas-new-generation-artificial-intelligence-development-plan-2017/
- [글로벌 산업 트렌드] 7월 초, 산업기계·스마트팩토리·AI 글로벌 전략 - 산업종합저널 동향, https://industryjournal.co.kr/news/242296
- Best Paper Awards - CVPR2017, https://cvpr2017.thecvf.com/program/main_conference
- [1608.06993] Densely Connected Convolutional Networks - arXiv, https://arxiv.org/abs/1608.06993
- Learning from Simulated and Unsupervised Images through Adversarial Training | Request PDF - ResearchGate, https://www.researchgate.net/publication/311900792_Learning_from_Simulated_and_Unsupervised_Images_through_Adversarial_Training
- ICML 2017 highlights - Criteo AI Lab, https://ailab.criteo.com/icml-2017-highlights/
- [1703.04730] Understanding Black-box Predictions via Influence Functions - arXiv, https://arxiv.org/abs/1703.04730
- Best Paper Award - RSS Foundation, https://roboticsfoundation.org/awards/best-paper-award/
- DenseNet: The Secret to Parameter Efficiency in Deep Learning | by Okan Yenigün - AI Mind, https://pub.aimind.so/densenet-the-secret-to-parameter-efficiency-in-deep-learning-f08ac30b6542
- What is the difference between densenet and resnet? - AI Stack Exchange, https://ai.stackexchange.com/questions/45035/what-is-the-difference-between-densenet-and-resnet
- [2001.02394] Convolutional Networks with Dense Connectivity - arXiv, https://arxiv.org/abs/2001.02394
- [PDF] Densely Connected Convolutional Networks - Semantic Scholar, https://www.semanticscholar.org/paper/Densely-Connected-Convolutional-Networks-Huang-Liu/5694e46284460a648fe29117cbc55f6c9be3fa3c
- (PDF) Densely Connected Convolutional Networks (2017) | Gao Huang | 44392 Citations, https://scispace.com/papers/densely-connected-convolutional-networks-i745msea9d
- Dense Convolutional Network and Its Application in Medical Image Analysis - PMC, https://pmc.ncbi.nlm.nih.gov/articles/PMC9060995/
- Convolutional Networks with Dense Connectivity, https://ask.qcloudimg.com/draft/6837186/ifesvdsrrm.pdf
- Convolutional Networks with Dense Connectivity - Cornell: Computer Science, https://www.cs.cornell.edu/~kilian/resources/DenseNet_Journal.pdf
- Review: DenseNet — Dense Convolutional Network (Image Classification) | by Sik-Ho Tsang | TDS Archive | Medium, https://medium.com/data-science/review-densenet-image-classification-b6631a8ef803
- Learning From Simulated and Unsupervised Images Through Adversarial Training - CVF Open Access, https://openaccess.thecvf.com/content_cvpr_2017/papers/Shrivastava_Learning_From_Simulated_CVPR_2017_paper.pdf
- Learning from Simulated and Unsupervised Images through Adversarial Training - ar5iv, https://ar5iv.labs.arxiv.org/html/1612.07828
- Learning from Simulated and Unsupervised Images through Adversarial Training, https://vitalab.github.io/article/2017/09/28/simulated-unsupervised-adversarial-learning.html
- Wasserstein Generative Adversarial Networks - Proceedings of Machine Learning Research, https://proceedings.mlr.press/v70/arjovsky17a.html
- HingeRLC-GAN: Combating Mode Collapse with Hinge Loss and RLC Regularization - arXiv, https://arxiv.org/html/2503.19074v1
- Wasserstein GAN, https://arxiv.org/abs/1701.07875
- Three-Player Wasserstein GAN via Amortised Duality - IJCAI, https://www.ijcai.org/proceedings/2019/0305.pdf
- TRAINING GENERATIVE ADVERSARIAL NETWORKS VIA PRIMAL-DUAL SUBGRADIENT METHODS: A LAGRANGIAN PERSPECTIVE ON GAN | OpenReview, https://openreview.net/forum?id=BJNRFNlRW
- Understanding Black-box Predictions via Influence Functions - arXiv, https://arxiv.org/pdf/1703.04730
- Understanding Black-box Predictions via Influence Functions, https://proceedings.mlr.press/v70/koh17a.html
- Understanding Black-box Predictions via Influence Functions - CampusAI, https://campusai.github.io/papers/Understanding-Black-box-Predictions-via-Infuence-Functions
- Asymptotically Optimal Kinematic Design of Robots using Motion Planning - PMC, https://pmc.ncbi.nlm.nih.gov/articles/PMC6472929/
- Asymptotically Optimal Design of Piecewise Cylindrical … - Robotics, https://www.roboticsproceedings.org/rss13/p20.pdf
- Asymptotically optimal kinematic design of robots using motion planning - DSpace@MIT, https://dspace.mit.edu/handle/1721.1/131532
- Kinematic Design Optimization of a Parallel Surgical Robot to Maximize Anatomical Visibility via Motion Planning - People | MIT CSAIL, https://people.csail.mit.edu/baykal/publications/icra2018.pdf
- Asymptotically Optimal Kinematic Design of Robots using Motion Planning - PubMed, https://pubmed.ncbi.nlm.nih.gov/31007394/
- Transformers - Hugging Face, https://huggingface.co/blog/Esmail-AGumaan/attention-is-all-you-need
- Attention Is All You Need - arXiv, https://arxiv.org/html/1706.03762v7
- “Attention is All You Need” Summary - Medium, https://medium.com/@dminhk/attention-is-all-you-need-summary-6f0437e63a91
- Attention is All you Need - NIPS, https://papers.neurips.cc/paper/7181-attention-is-all-you-need.pdf
- Attention is all you need: Discovering the Transformer paper | Towards Data Science, https://towardsdatascience.com/attention-is-all-you-need-discovering-the-transformer-paper-73e5ff5e0634/
- Attention Is All You Need | Request PDF - ResearchGate, https://www.researchgate.net/publication/317558625_Attention_Is_All_You_Need
- “Attention Is All You Need” Explained | by Zaynab Awofeso | CodeX - Medium, https://medium.com/codex/attention-is-all-you-need-explained-ebdb02c7f4d4